Responde cada pregunta en una hoja distinta. Tiempo disponible: 2h

 (3.5 puntos) Un procesador dispone de ocho núcleos idénticos. Para mejorar las prestaciones del procesador los arquitectos están pensando en dos opciones de diseño; en ambas, el área debe ser la misma que la del procesador original.

La primera opción consiste en sustituir todos los núcleos originales por núcleos que ocupan la mitad de espacio pero cuyas prestaciones son un 70 % las de los núcleos originales.

La segunda opción consiste en dedicar parte del espacio a un núcleo un 41 % más rápido. En concreto, este núcleo ocupa doble área que un núcleo original. El resto del área está ocupada por núcleos originales.

Se pide:

- a) Suponiendo que una aplicación A tiene una fracción de tiempo paralelizable del 80 % (F=0.8) cuando se ejecuta sobre 1 solo núcleo, calcula la aceleración del procesador original con 8 núcleos respecto a la ejecución en 1 solo núcleo.
- b) Calcula la aceleración o deceleración de la opción 1 sobre el procesador original (con 8 núcleos) para la aplicación A.
- c) Calcula la aceleración o deceleración de la opción 2 sobre el procesador original (con 8 núcleos) para la aplicación A. Asume que la fracción de tiempo paralelizable se reparte a partes iguales entre los núcleos independientemente de la potencia de cómputo del mismo, y la fracción secuencial la ejecuta el núcleo más rápido.
- d) Cuando una aplicación B se ejecuta sobre los 8 núcleos en el procesador original se alcanza un speedup de 1.7, respecto a si la misma aplicación se ejecuta sobre el mismo procesador pero utilizando solo 4 núcleos. Calcula la fracción de tiempo paralelizable de la aplicación B con 4 núcleos.
- 2. (**3 puntos**) En un computador Load/Store se pretende mejorar las prestaciones basandose en los resultados obtenidos en un benchmark. De dichos resultados se han obtenido las siguientes estadísticas para las distintas categorías de instrucciones:

| Operación | %  | CPI |
|-----------|----|-----|
| ALU       | 38 | 1   |
| LOAD      | 26 | 2   |
| STORE     | 11 | 2   |
| Saltos    | 25 | 2   |

En el análisis realizado se descubre que un porcentaje de los modos *Desplazamiento* utilizados en las instrucciones de acceso a memoria (load/store) tienen un valor de cero en el campo inmediato del formato I. Para mejorar las prestaciones se plantea eliminar el modo Desplazamiento en todas las instrucciones de acceso a memoria y dejar solo el modo Registro Indirecto para estas instrucciones. Esta modificación permitirá reducir el CPI de las instrucciones Load/Store a 1 ciclo de reloj. El inconveniente es que requiere la utilización de una instrucción aritmética adicional cada vez que el campo inmediato es distinto de cero. En concreto, la instrucción load

se sustituirá por:

mientras que la load

se sustituirá por:

```
ld r1, (r10)
```

Dicha modificación simplifica la ruta de datos y por tanto permite aumentar la frecuencia de reloj un 10 %. Responda a las siguientes preguntas razonando y justificando todas sus respuestas:

- a) Calcule el CPI promedio del procesador original.
- b) Sabiendo que se ha observado un valor distinto de cero en el campo inmediato en un 47 % de las load y un 74 % de las store, indique como quedaría la tabla de porcentajes de instrucciones después de realizar la modificación.
- c) Calcule el CPI promedio del procesador modificado.
- d) Cuantifique si la mejora propuesta es adecuada o no calculando la aceleración obtenida respecto al procesador original.

## 3. (3.5 puntos)

En un procesador MIPS básico segmentado en las 5 etapas habituales (IF,ID,EX,M,WB) se ejecuta un bucle para realizar la siguiente operación:  $\vec{Z} = a + \vec{X} + \vec{Y} + \vec{Z}$ .

El diagrama instrucciones-tiempo de una iteración cualquiera del bucle es el siguiente:

```
01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
dadd r6,r4,r2 \, IF IF ID ID ID EX ME WB
                      IF IF IF ID EX ME WB
      ld r2,y(r1)
      dadd r6, r6, r2
                                    IF ID ID ID EX ME WB
      ld r2,z(r1)
                                       IF IF IF ID EX ME WB
      dadd r6, r6, r2
                                               IF ID ID ID EX ME WB
      sd r6, z(r1)
                                                  IF IF IF ID ID ID EX ME WB
      bnez r1, bucle
                                                          IF IF IF ID EX ME WB
                                                                  IF ID EX ME WB
      dsub r1, r1, #8
                                                                     IF ID EX ME WB
      nop
bucle: ld r2,x(r1)
                                                                        IF ID ID EX ME WB
```

A partir del diagrama, responda a las siguientes cuestiones:

- a) ¿Con qué otra instrucción del bucle tiene un riesgo la instrucción 1d r2, x(r1) que causa la inserción de un ciclo de parada en el ciclo 21? ¿A qué se debe este riesgo?
- b) ¿Cuál es el registro involucrado en la inserción de los ciclos de parada en los ciclos 15 y 16? ¿Para qué se usa su contenido?
- c) ¿Qué técnica se utiliza para resolver los riesgos de control y cuáles son sus características?
- d) ¿Cuántos ciclos de parada se insertan en total durante la ejecución de una iteración del bucle?
- e) Asumiendo que todas las iteraciones son iguales y que el número de iteraciones es elevado, ¿cuál es el CPI del bucle?
- f) El bucle anterior se adapta para trabajar con vectores de datos en coma flotante de doble precisión, sustituyéndose su código por el siguiente:

Este código se ejecuta en un procesador MIPS con operador de suma de coma flotante multiciclo con latencia 3 y las siguientes características:

- Resolución de riesgos de datos por cortocircuitos.
- Bancos de registros de enteros y de coma flotante independientes con dos puertos de lectura y uno de escritura cada uno.

Teniendo en cuenta que en este procesador, las instrucciones de enteros y de carga/almacenamiento siguen utilizando las 5 etapas habituales, mientras que las instrucciones de suma en coma flotante pasan por las siguientes etapas IF,ID,A1,A2,A3,WB, dibuja en la hoja adjunta el diagrama correspondiente a la ejecución de las 7 primeras instrucciones del bucle (hasta la s.d f6, z (r1) inclusive).

## Ejercicio 3

f) Diagrama instrucciones-tiempo.

|             | Ciclo |   |   |   |   |   |   |   |   |    |    |    |    |    |    |    |    |    |    |    |
|-------------|-------|---|---|---|---|---|---|---|---|----|----|----|----|----|----|----|----|----|----|----|
| Instrucción | 1     | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
|             |       |   |   |   |   |   |   |   |   |    |    |    |    |    |    |    |    |    |    |    |
|             |       |   |   |   |   |   |   |   |   |    |    |    |    |    |    |    |    |    |    |    |
|             |       |   |   |   |   |   |   |   |   |    |    |    |    |    |    |    |    |    |    |    |
|             |       |   |   |   |   |   |   |   |   |    |    |    |    |    |    |    |    |    |    |    |
|             |       |   |   |   |   |   |   |   |   |    |    |    |    |    |    |    |    |    |    |    |
|             |       |   |   |   |   |   |   |   |   |    |    |    |    |    |    |    |    |    |    |    |
|             |       |   |   |   |   |   |   |   |   |    |    |    |    |    |    |    |    |    |    |    |
|             |       |   |   |   |   |   |   |   |   |    |    |    |    |    |    |    |    |    |    |    |
|             |       |   |   |   |   |   |   |   |   |    |    |    |    |    |    |    |    |    |    |    |